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摘 要 : 兴趣 点 (point-of-interest，POJT) 推 荐 是 基于 位 置 的 社交 网 络 (location-based social networks，LBSN) 中 一 项 重要 的 
服务 。 针 对 目前 推荐 算法 存在 的 噪声 数据 影响 推荐 质量 , 用 户 个 性 化 程度 低 的 问题 , 提出 了 一 种 个 性 化 联合 推荐 算法 。 

提出 了 引入 POI 的 位 置 因素 去 除 不 可 能 或 可 能 性 较 小 的 POI， 形 成 初步 候选 集 ; 综合 考虑 POI 的 类 别 、 流 行 度 及 用 户 
的 社会 行为 ， 增 加 用 户 个 性 化 的 程度 ， 提 高 推荐 结果 的 质量 。 在 Foursquare 真实 签到 数据 集 上 的 实验 ,证 明了 提出 的 
联合 推荐 算法 与 目前 先进 的 算法 相 比 ， 准 确 率 提 高 11%， 召 回 率 提高 8%。 
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Personalized point-of-interest recommendation in location-based social networks 


Han Xiaofeng, Niu Baoningi, Yang Rong 
(School of Computer Science & Technology, Taiyuan University of Technology, Taiyuan 030024, China) 


Abstract: Point-of-interest (POI) recommendation is an important service in location-based social networks (LBSNs) . For the 
current recommendation algorithm exists the problems of the noise data affects the recommended quality and low level of user 
personalization. Motived by this, this paper proposed a personalized joint recommendation algorithm (JRA) . JRA initially 
utilized the locality of user activity area to early filter the POIs which are impossible or less likely to be a result. For the received 
preliminary candidate set, then it also considered consider category factor and the popularity factor of POI, and the social 
behavior of the user to further improve the user experience. The experiments on real Foursquare check-in dataset demonstrate 
that the JRA compared with the current advanced algorithm, the accuracy rate increased by 11%, recall rate increased by 8%. 


Key words: POI recommendation; locality of POI; category of POI; popularity of POI; social of POI; location based social 


network 
0 引言 象 。 在 目前 兴趣 点 推荐 的 研究 中 ， 主 要 存在 以 下 两 点 不 足 : 
本 引 未 能 提出 有 效 的 过 滤 机 制 消除 噪声 数据 。 庞 大 的 用 户 签 


随 着 移动 定位 技术 的 进步 和 兴趣 点 (point-of-interests, POD ”到 数据 中 不 可 避免 地 混杂 许多 噪声 数据 ， 过 多 的 噪声 数据 会 导 


的 增加 (如 商场 、 餐 厅 、 公 园 、 景 点 等 )， 基 于 位 置 的 社交 网 络 。 致 推荐 质量 的 降低 。 若 能 提前 将 原始 数据 中 不 符合 用 户 行为 习 

(location-based social networks, LBSN) 吸 引 了 越 来 越 多 的 用 户 。 惯 的 签到 数据 筛选 ， 可 以 有 效 提高 推荐 质量 ， 并 减少 计算 量 ， 
et cn ce eb 如 将 远离 用 户 生活 圈 的 兴趣 点 过 滤 

些 LBSN 网 站 为 用 户 提供 位 置 签到 、 位 置 评论 、 位 置 与 社交 好 b) 个 性 化 程度 较 低 。 每 个 用 户 的 需求 是 不 同 的 ， 个 性 化 程 

友 分 享 等 功能 ， 积 累 ] se 化 兴趣 ， 度 代表 对 用 户 需 求 的 探索 程度 ， 影 响 推荐 结果 的 质量 。 协 同 关 


过 
点 推荐 的 数据 。 兴 趣 点 推荐 关联 用 户 和 兴趣 点 ， 既 可 以 让 用 户 ” 滤 算法 聚 类 相似 用 户 行为 , 体现 用 户 的 偏好 B-9, 即 用 相似 用 户 
迅速 发 现 满足 偏好 的 兴趣 点 ， 又 可 以 让 兴趣 点 找 准 自身 定位 ， 的 偏好 代 蔡 用 户 自 身 偏好 。 这 样 做 着 重 于 反映 和 用 户 兴趣 相 类 
吸引 相关 用 户 ， 实 现 两 者 的 双赢 。 以 的 群体 的 社会 化 个 性 ， 忽 视 了 对 象 自身 的 属性 。 用 户 访 问 过 
协同 过 滤 技 术 所 是 常用 的 推荐 技术 , 大 量 算法 B-9 都 是 以 协 ”的 兴趣 点 属性 是 用 户 偏好 和 需求 最 直观 的 表现 ， 若 能 在 相似 用 
同 过 滤 作为 基础 的 ， 它 的 基本 思想 是 推荐 的 对 象 应 当 是 与 用 户 户 的 偏好 的 基础 上 ， 选 择 对 象 合适 的 属性 加 以 考虑 ， 可 以 维系 


喜爱 的 对 象 相似 ， 或 者 是 与 用 户 兴 趣 相 似 的 其 他 用 户 喜爱 的 对 ”用户 的 历史 偏好 ， 提 高 推荐 结果 的 个 性 化 程度 。 
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录用 稿 韩 笑 峰 ， 等 : 基于 位 置 社交 网 络 的 个 性 化 兴趣 点 推荐 
针对 问题 a) 本 文 提出 基于 位 置 的 过 渡 算 法 。 根 据 用 户 签 。 质量 。 利 用 历史 访问 的 兴趣 点 特征 ， 结 合用 户 的 社会 关系 、 历 


行为 提高 用 户 个 性 化 程度 。 


2 “个 性 化 联合 推荐 算法 


到 的 地 理 特征 对 目标 进行 过 滤 ， 筛 选 出 符合 用 户 日 常 活动 范 置 
的 兴趣 点 ， 去 除 噪声 数据 的 和 干扰， 提高 推荐 的 质量 。 针 对 问题 


将 


b) 本 文 利用 用 户 访 问 过 的 兴趣 点 的 分 类 、 流行 度 来 增强 推荐 结 

果 的 个 性 化 程度 。 这 两 种 属性 可 以 方便 地 从 签到 数据 中 获取 ， 2.1 问题 描述 

带 有 明显 的 用 户 偏 好 ， 可 以 维系 用 户 自 身 的 历史 兴趣 ， 把 它们 LBSN 中 的 兴趣 点 推荐 是 通过 分 析 用 户 历史 签到 数据 ， 为 

与 协同 过 滤 算 法 得 到 的 相似 用 户 偏好 相 融 合 ， 提 高 推荐 结果 的 用 户 推 荐 未 访问 过 的 兴趣 点 。LBSN 中 包含 用 户 集 

个 性 化 程度 。 U={1, Wy, Im 和 兴趣 点 集 殊 世 ,2 4} 及 用 户 在 兴趣 点 
的 签到 记录 集合 三 类 数据 了 = 全, 厂 ,……} 。 图 1 描述 了 一 个 简 


1 下 
人 单 的 基于 位 置 的 社交 网 络 图 G={U, 工 7} 。 其 中 包含 若干 用 户 、 
LBSN 签到 数据 中 包含 多 维度 信息 ， 与 兴趣 点 和 用 户 属 性 ”若干 POI 及 三 类 相关 关系 一 用 户 之 间 的 好 友 关 系 ， 兴 趣 点 之 间 


相关 ， 利 用 LBSN 签到 数据 可 以 提高 兴趣 点 推荐 质量 。 兴 趣 点 。 的 关联 关系 以 及 用 户 与 兴趣 点 之 间 的 签到 关系 。 签 到 记录 蕴涵 
推荐 技术 主要 有 以 下 两 类 。 用 户 和 POI 这 两 种 实体 的 三 种 关系 。 分 析 签 到 记录 可 以 发 现 
a) 基 于 内 容 的 推荐 。 通 过 提取 用 户 特 征 和 兴趣 点 特征 构建 这 些 关 系 ， 从 而 提高 推荐 质量 。 本 文 提 出 的 个 性 化 联合 推荐 算 


推荐 模型 。Gao 等 人 中 将 兴趣 点 特征 、 用 户 兴 趣 和 用 户 情感 相 ”法 为 用 户 提供 一 个 包含 TOP-N 未 曾 访问 过 的 POI 的 推荐 列表 。 
结合 ， 将 这 三 种 类 型 信息 合并 到 一 个 统一 框架 中 ， 建 立 了 一 个 。 车 之 后 用 户 对 这 些 POI 进行 访问 ， 则 认为 推荐 的 结果 符合 用 户 
推荐 模型 。Bao 等 人 中 结合 从 兴趣 点 特征 中 得 到 的 个 人 偏好 和 ”的 判断 ， 是 高 质量 的 推荐 。 
从 数据 集中 分 析出 的 专家 信息 ， 对 兴趣 点 评分 。 这 些 推荐 算法 

以 被 推荐 对 象 的 内 容 特征 为 主 ， 推 断 用 户 的 偏好 ， 仅 考虑 用 户 O 人 yn 
和 兴趣 点 本 身 ， 没 有 考虑 用 户 间 以 及 兴趣 点 之 间 的 各 种 联系 。 

b) 基 于 协同 过 滤 的 推荐 算法 。 大 致 可 以 分 为 基于 模型 的 协 
同 过 滤 算 法 和 基于 记忆 的 协同 过 滤 算 法 两 类 中。 

三 于 模型 的 推荐 算法 的 核心 是 使 用 用 户 一 地 点 评分 矩阵 构 
建 预 测 模型 。Liu 等 人 0 提出 一 种 改进 型 奇异 值 分 解 模型 ， 对 
用 户 的 签到 矩阵 进行 特征 提取 , 有 助 于 解决 矩阵 稀疏 性 的 问题 ; 
但 分 解 后 的 矩阵 仍 需 还 原 ， 这 需要 很 大 的 计算 量 。 曹 玖 新 等 人 
3 设置 元 路 径 特征 集 ， 利 用 随机 游 走 算法 度量 节点 间 的 关联 度 ， 
用 监督 学 习 方 法 获得 特征 权 值 推断 签到 概率 ， 然 而 元 路 径 在 收 
集 阶段 需要 遍历 整个 网 络 的 不 同类 型 节点 所 有 可 能 的 链接 情况 ， 为 方便 讨论 ， 表 1 列 出 了 本 文中 使 用 的 一 些 重要 符号 。 
计算 代价 十 分 高 昂 。 2 
目前 的 研究 更 多 的 集中 在 基于 记忆 的 协同 过 滤 算 法 加 ， 并 。 “条 如 
在 此 基础 上 加 入 其 他 因素 来 提高 推荐 质量 。 一 种 思路 是 通过 挖 了 有 
] 户 之 间 的 社会 因素 来 提高 兴趣 点 推荐 质量 。 Konstas 等 人 中 本 户 集 中 的 一 个 用 户 : u, eU 
潜在 因素 模型 获得 用 户 社会 关系 中 的 相似 性 ， 再 无 颖 衔接 LBSN 中 所 有 POIs 的 外 
到 基于 用 户 的 协同 过 滤 中 。 另 一 种 思路 是 利用 位 置 因 素 提高 推 
荐 质量 。Ye 等 人 ao 提出 兴趣 点 的 分 布 符合 宕 律 分 布 ， 综合 考虑 1 POI 集 合 中 的 一 个 POl: 人 jeL 
兴趣 点 的 距离 因素 和 用 户 的 社会 因素 进行 协同 过 滤 。 Yuan 等 人 由 
中 认为 用 户 行为 受 时 空 因素 的 制约 ,利用 兴趣 点 的 空间 距离 和 i 类 出 综 全 的 一 处 补 类 ;万 忆 
时 间 差 估计 军 律 分 布 ， 衡 量 访问 位 置 对 新 位 置 的 影响 。 以 上 研 a 
究 仅 考虑 将 社会 因素 和 位 置 因 素 引 入 协同 过 滤 算 法 中 ， 本 文 在 
这 两 者 的 基础 上 作出 改进 ， 将 其 中 的 位 置 因素 设置 为 预 处 理 条 签到 集合 的 记录 ;大 (4,l)) eT 
件 ， 增 加 了 兴趣 点 的 流行 度 因素 和 类 别 因素 ， 提 出 计算 POI 分 
类 流行 度 的 方法 ， 能 有 效 提高 推荐 质量 。 2.2 ”兴趣 点 推荐 中 的 位 置 因 素 

本 文 提出 一 种 个 性 化 联合 推荐 算法 ， 综 合 考虑 类 别 因素 、 在 实际 的 生活 中 ， 人 们 的 活动 往往 局 限于 某 一 范围 
流行 度 因素 、 位 置 因素 、 社 交 好 友 因 素 和 用 户 历史 签到 行为 ， ”在 签到 数据 中 ， 就 是 用 户 的 签到 行为 发 生 在 相对 较 小 的 地 理 空 
提出 基于 位 置 的 过 滤 算法 减少 噪声 和 干扰 ， 以 提高 推荐 结果 的 。” 间 内 ， 称 为 签到 的 空间 聚 类 现象 (MU。 地 理学 第 一 定律 9 指出: 


签到 关系 


四 1 位 置 社交 网 络 结构 


符号 


长 合 (Locations) 


中 
只 
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王 何事 物 都 相关 ， 只 是 相近 的 事物 关联 更 紧密 。 因 此 ， 在 对 | 5. end for 
户 进行 POI 推荐 时 ， 位 置 因素 是 一 个 不 可 被 忽视 的 因素 ， 用 户 6. Candlist=L\LU 
更 趋向 于 访问 距离 较 近 的 兴趣 点 。 为 了 验证 这 个 推断 ， 本 文 做 7. for each ,eCandlist do 
了 下 面 的 实验 。 8. for each l;eLU do 

以 Foursquare 中 真实 数据 集 为 例 ， 对 所 有 用 户 计算 其 访问 9. D+= Dist(l,l)) 
过 的 任意 两 个 POI 之 间 的 距离 ， 并 对 得 到 的 距离 进行 聚 类 ， 结 10. end for 
果 如 图 2 所 示 。 图 中 横 坐 标 代表 距离 , 纵 坐 标 代表 任意 两 个 POI 11. D,=D,/|LU| 
对 间 的 平均 距离 小 于 横 坐 标 指定 距离 区 间 的 用 户 比例 。 例 如 ， 12. if(D ,<D,,) then 
横 坐 标 5 km 对 应 的 纵 坐 标 代表 平均 距离 处 在 0~5 km 之 间 的 用 13. CU.add(l,) 
户 比 例 。 14. end if 
图 2 显示 ， 超 过 89.3% 以 上 的 用 户 平均 签到 距离 在 10 km 15. end for 
以 内 ， 可 以 认为 当 距 离 超过 10 km 时 ， 用 户 访问 该 POI 的 可 能 16. return CU 
性 非常 低 。 通 过 平均 距离 的 计算 ， 分析 得 出 人 们 更 倾向 于 访问 2.3” 兴趣 点 推荐 中 的 分 类 流行 度 因素 
与 之 前 签到 记录 距离 相近 的 兴趣 点 ， 且 访问 兴趣 点 的 概率 随 着 LBSN 中 的 签到 数据 按照 POI 被 分 为 不 同 的 类 别 。 类 别 信 
兴趣 点 距离 的 增加 而 逐渐 降低 。 息 隐 含 了 POI 的 风格 和 提供 的 产品 与 服务 。 用 户 访问 过 的 POI 


因此 ， 本 文 提 出 基于 位 置 的 过 滤 算法 ， 对 原始 数据 集 根据 ”的 类 别 信息 可 用 于 分 析 用 户 的 个 性 化 偏好 。 除 了 相似 用 户 的 偏 
距离 信息 进行 过 滤 ， 将 远离 用 户 日 常 活动 范围 的 POI 排除 ,， 避 好， 类 别 信息 也 能 体现 用 户 的 主观 意愿 。 例 如 ， 当 某 用 户 在 博 


免 这 些 POI 干扰 推荐 结果 ， 提 高 推荐 的 质量 。 物 馆 这 个 类 别 的 POI 签到 记录 数量 远 超 其 他 类 别 时 ， 可 以 认为 
该 用 户 钟情 于 艺术 收藏 ， 当 推荐 POI 时 ， 应 该 优先 推荐 博物 馆 
网 类 别 的 POI。 

3 Foursquare 将 所 有 的 POI 分 为 以 下 8 大 类 : < Arts & 
下 Entertainment, College & University, Food, Great Outdoors, 
时 - Buildings, Nightlife Spots, Shops, Travel Spots>， 可 以 利用 用 户 
中 签到 不 同类 别 之 间 的 数量 关系 来 量化 用 户 对 不 同类 别 的 偏好 程 

人 m 一 度 。 
a 如 式 (1) 所 示 ， 首 先 统计 用 户 每 个 类 别 的 签到 数量 


Pt 


7T(u,c)={t, eT|tu=uMcatlt,)=c}， 再 将 其 标准 化 为 0 到 
之 间 的 数值 。 式 (1) 中 分 子 为 用 户 访 问 某 类 别 POI 的 签到 数量 ， 
基于 上 述 分 析 ， 本 文 首先 利用 用 户 未 访 POI 与 已 访问 POI 分 母 是 用 户 访问 过 的 所 有 类 别 中 签到 数量 的 最 大 值 。 通 过 式 (]) 
间 的 平均 距离 提出 一 种 基于 位 置 的 过 滤 算 法 (location based ”每 个 用 户 都 会 得 到 一 个 对 各 个 类 别 的 偏好 的 得 分 向 量 ， 记 为 
filtering algorithm, LBFA ), 为 用 户 推荐 TOP-N 个 未 访问 的 POI。 CA47(ub) =< cat(u,c1),…,Cat(u,cs)>，, 用 于 表示 用 户 对 于 不 同类 别 
算法 1 列 出 了 LBFA 算法 的 伪 代 码 ， 第 1~5 行 首先 扫描 签到 数 。” POI 的 偏好 程度 。 


图 2 用 户 签到 平均 距离 分 布 


据 集 的 所 有 记录 , 选 出 所 有 属于 指定 用 户 的 签到 兴趣 点 集合 TQ,0) 

cat(u,c) = (1) 
LU 。 第 6 行 生成 用 户 仍 未 访问 过 的 POI 集合 Candlist。 第 7~17 argucc MAX (|T(u,c))) 
行 依次 遍历 Candlist 中 每 一 个 候选 点 ， 计 算 它 与 用 户 访问 过 的 然而 仅仅 利用 分 类 信息 只 能 将 用 户 偏 好 有 具体 到 类 别 ， 每 个 
POI 集合 LU 中 兴趣 点 的 平均 距离 (8~11 行 ), 对 得 到 候选 点 的 类 别 中 又 有 许多 的 POI， 认 为 所 有 同类 别 POI 对 于 用 户 是 同等 


平均 距离 进行 判定 ， 若 其 值 小 于 规定 的 闵 值 (Dm=10 km)， 则 将 ”重要 的 显然 是 不 合理 的 。 为 了 得 到 同 种 类 不 同 POI 的 权重 ， 本 
这 个 点 加 入 过 滤 后 的 最 终 候 选 点 集合 CU 中 (12~15 行 ) 直到 文 在 类 别 的 基础 上 引入 了 流行 度 因素 。 流 行 度 即 POI 的 受 欢迎 
Candlist 中 所 有 点 都 判定 完毕 ， 返 回 过 滤 后 的 候选 点 集合 CU 。 ”程度 ， 可 以 反映 POI 所 提供 服务 的 质量 。 本 文 认为 对 于 同类 型 


算法 1 基于 位 置 的 过 滤 算 法 的 POI， 流 行 度 越 高 ， 则 POI 的 质量 越 高 ， 推 荐 的 优先 级 也 应 
输入 用 户 U,、 用 户 签到 数据 集 T 、 兴 趣 点 集合 区 。 该 越 高 。 

输出 经 过 位 置 过滤 的 POI 集合 CU 。 从 签到 记录 中 可 以 得 到 以 下 两 种 标签 : POI 总 访客 数量 
1. for each fi,eT do v(1,) 和 POI 总 签到 数量 1(1) 。POI 的 访客 数 和 签到 数 是 同类 别 
2. if(fis =U,) then POI 流行 度 最 直观 的 表现 ， 可 以 说 明 一 个 POI 的 受 欢 迎 程度 。 
3. LU.add(i,) 于 POI 之 间 的 访客 数 和 签到 数 可 能 相差 很 大 , 用 式 (2) 计 算 已 


4. end if 知 类 别 的 POI 的 流行 度 ， 采 用 调和 平均 数 希 望 得 到 相对 较 大 的 
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chinaXiv 


式 (2)9 


别 的 兴趣 点 中 签到 数量 的 最 


Im| 


和 CMAX (CO = Afg/eL,carll )=ca() MAX (DN) 代表 同类 


大 值 ， 


CMAX (Ch=arg ,MAX(v(DD 代表 同类 别 的 POI 中 访 


客 数量 的 最 大 值 。 


综 上 ， 用 户 对 候选 POI 的 偏好 得 分 PS 利 | 


pa 


vO)| 


CMAX (AD) CMAX (wD 


pop(/,) = 


la)| 
CMAX (|(D)) 


vO) 
CMAX (vODD 


其 同时 考虑 


2.4 


类 别 因素 和 流行 度 因素 。 


PS'(u,, 1,) = cat(u,, Cy )pop(l;) 


兴趣 点 推荐 中 的 社会 因素 


基于 用 


当 有 同样 的 


录 来 寻找 行为 相似 的 用 户 。 
在 现实 生活 中 ， 用 


户 的 协同 过 滤 算 法 核心 思想 在 于 行为 相 


扁 好 。 传 统 的 基于 用 


户 的 协同 过 滤 依 据 


户 在 购买 不 熟悉 的 物品 前 倾 


友 ， 类 似 地 ， 在 访问 某 


2) 


韩 笑 峰 ， 等 : 基于 位 置 社 诡 


例如 ， 本 文 一 般 会 在 社交 网 络 中 与 长 辈 互相 关注 ， 但 他 们 的 1 
好 与 本 文 相 差 极 大 。 为 了 避免 这 种 情况 ， 好 友之 间 的 相似 度 ， 
须 考虑 。 另 一 方面 ， 好 友之 间 的 推荐 也 不 是 同等 重要 的 。 一 个 
点 头 之 交 建 议 的 可 信和 度 与 关系 密切 的 好 友 的 建议 的 可 信 度 显然 
不 一 样 。 好 友之 间 的 熟悉 程度 也 要 考虑 。 因 此 使 用 式 (4) 表 示 用 
户 的 社会 影响 因子 : 


出 | 


Es 


Sly = sim Jo 


(4) 
其 中 : simix 表示 好 友 间 的 相似 度 , 仍 使 用 Cosine 相似 度 计算 ; 
[ENR| ., 


可 o 这 里 由 于 是 


Jamix 表示 好 友 间 的 熟悉 程度 ， fur = 


j 式 (3) 来 计算 ， 


G3) 


以 的 用 户 应 
历史 访问 记 


向 于 求助 好 


个 兴趣 点 时 ， 比 起 陌生 人 或 者 POI 供应 


商 ， 用 户 更 愿意 相信 自己 的 好 友 。 同 时 ， 好 友 们 也 常常 一 起 活 


动 ， 例 如 好 友 会 一 起 去 看 


好 友 极 力 


兴趣 和 相似 的 行为 。 研 究 证 


电影 或 者 结伴 去 景点 游玩 ， 用 


户 会 去 


荐 的 餐厅 吃饭 等 。 因 此 ， 好 友之 间 常 表现 有 


明 ， 用 


户 的 所 有 首次 访 


% 同 的 
问 记录 中 ， 


超过 30% 的 POI， 其 好 友 都 曾经 访问 过 由， 因此 有 必要 将 用 户 
的 社会 因素 引入 推荐 系统 ， 增 加 推荐 的 精度 。 
将 社会 因素 引入 基于 用 户 的 协同 过 滤 算 法 之 后 ， 发 生变 化 
的 量 主要 为 用 户 访问 候选 POI 的 概率 计算 公式 。 
传统 的 基于 用 户 的 协同 过 滤 算 法 计算 用 户 uw 对 任意 候选 
a > SIm, (fi, ; 
POI ,的 访问 概率 计算 公式 为 : tij = 乞 一 一 。 其 中 : sim;. 
Dsim, 


表示 用 户 之 间 的 相似 度 ， 可 以 有 多 种 度量 方法 ， 如 Cosine、 


Jaccard 相似 度 以 及 皮尔 逊 相似 度 。 
对 准确 且 方便 计算 49 ,因此 选择 这 种 方法 计算 用 


Dh 


Sim, 


则 代表 用 


引入 社会 因素 后 ,用 


算 公 式 为 : t; j= 


Rin 


”er 
UeL bj 


兴趣 点 4 的 访问 状态 , 若 忒 ) 


To 
> fy 
UeL kj 


并 


中 Cosine 相似 度 结果 相 
户 相 似 度 。 


fj 为 签到 记录 表示 


1 代表 用 


户 还 未 在 此 签到 。 


> eF Slir 


。 上 其 中 


: 五 代表 用 


户 对 于 用 户 4 的 社会 影响 因子 


相似 程度 和 


用 户 的 社会 影响 因子 
面 ， 在 实际 的 失 


? 有 些 用 户 尽 管 


| 


荐 过 程 中 ， 


用 户 区 .在 


户 已 在 此 处 签到 , fi; =0 


户 u 对 任意 候选 POI 1; 的 访问 概率 计 
六 Slix ey 


rw 的 好 友 


o 


熟悉 程度 两 部 分 组 成 。 
不 是 所 有 的 好 友 都 起 正面 的 
社交 好 友 ， 他 们 之 间 的 兴趣 相差 极 大 。 


用 户 集合 之 间 的 计算 ， 选 择 使 用 Jarccard 相似 度 计算 好 友 的 熟 
悉 程度 。 笔 者 认为 用 户 间 的 共同 好 友 数 量 越 多 ， 说 明 两 者 之 间 
的 关系 越 密切 。 

在 实际 计算 时 ， 将 计算 得 到 的 所 有 候选 POI 的 签到 概率 进 
行 标准 化 得 到 用 户 关 于 POI 的 社会 得 分 SS ， 标 准 化 公式 为 


的 | 


age MAX 上 


| 


SS(u,,1,)= (5) 


其 中 : ,代表 候选 POI1 的 签到 概率 ，arg, ;MAX|8 | 代表 所 


有 候选 点 签到 概率 的 最 大 值 。 

2.5 联合 推荐 算法 

前 大 多 数 流 行 的 算法 仅 考 虑 将 社会 因素 和 位 置 因素 引入 
协同 过 滤 算 法 中 ， 本 文 在 这 两 者 的 基础 上 作出 改进 ， 将 其 中 的 
位 置 因 素 设置 为 预 处 理 条 件 ， 增 加 了 兴趣 点 的 流行 度 因素 和 类 
别 因素 ， 提 出 计算 POI 分 类 流行 度 的 方法 ， 与 现 有 的 协同 过 波 
方法 融合 ， 最 终 形成 了 综合 考虑 POI 的 位 置 、 类 别 、 流 行 度 、 
社会 因素 和 用 户 行为 的 算法 ， 即 联合 推荐 算法 Goint reco- 
mmendation algorithm, JRA).。 算 法 2 列 出 了 JRA 算 法 的 伪 代 码 。 
第 1 行 首先 调用 LBFA 算法 ， 对 原始 数据 中 的 兴趣 点 集 进行 过 
滤 ， 返 回 候选 点 集合 CU 。 第 2~6 行 扫描 候选 点 集中 的 所 有 兴 
趣 点 ， 分 别 调用 CompuCat( ) 和 CompuPop( ) 函 数 计算 兴趣 点 的 
分 类 得 分 和 流行 度 得 分 ， 将 两 者 相 乘 得 到 兴趣 点 的 偏好 得 分 
PS 。 第 7~14 行 调用 CompuSim( ) 和 CompuFam( ) 函 数 计算 用 
户 u, 和 好 友和 集 合 中 的 每 个 用 户 之 间 的 相似 度 和 熟悉 度 ， 
将 两 者 相 乘 得 到 用 户 的 社会 影响 因子 ， 把 这 个 因子 带 入 到 好 友 
协同 过 滤 算 法 得 到 兴趣 点 的 社会 得 分 $$ 。 第 15 行 根据 参数 w 
(0<Q& <1) 将 PS 和 SS 线性 融合 得 到 最 终 得 分 5$ 。 第 16~18 行将 
候选 点 集 CU 根据 得 分 5S 降序 重新 排序 得 到 序列 集 SU ， 选 出 
SU 中 前 K 个 兴趣 点 形成 最 终 推 荐 结果 集合 RS ， 完 成 推荐 过 


程 。 


S11) = 0 SF(u,,))+(1-0) :SS(u,,l)) 
联合 推荐 算法 

输入 用 户 U、 用 户 集合 户 签到 数据 集 、 兴 趣 点 集合 、 兴 趣 
点 分 类 集合 C 、 用 户 U 好 友 集合 


输出 TOP-N 个 兴趣 点 组 成 的 推荐 列表 RS。 


(6) 
算法 2 
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录用 稿 韩 笑 峰 ， 等 : 基于 位 恒 社 交 同 络 的 在 性 化 兴 点 推荐 

1. CU=LBFA(u,,T,L) 户 实际 访问 兴趣 点 总 数 的 比例 , 反映 推荐 的 全 面 性 。 其 中 : R(W 

2. for each le CU do 代表 推荐 算法 在 训练 集 执行 后 得 到 的 兴趣 点 推荐 列表 ;而 T(w 

3. cat(u,c;) < CompuCat(u.,c;) 代表 用 户 在 测试 集 上 的 实际 签到 的 兴趣 点 列表 。 

R T 
4. pop(l,c;) € CompuPop(l,,c,) precision = Ze NT (7) 
ueU R(W)| 
DR MNT) 
5. SF(u,,l,)=cat(u,,c;): popll,,c, Recall = 8 
(140)=cat(u,0): pop(L,c,) SY re (8) 

6. end for 3.3 参数 选取 

7. for each l;eCU do 在 第 2.5 节 提 到 需要 确定 参数 a (0< wx <1) 的 取 值 ， 调 节 用 

8. for each ueF do 户 的 偏好 得 分 PS 和 社会 得 分 SS 在 推荐 结果 中 所 占 的 比例 ， 当 

8， Sim(W, i ) €— CompuSim(u,,u, ) a 的 值 越 大 时 ， 通 过 用 户 的 兴趣 点 特征 得 到 的 偏好 得 分 对 结果 

10. fam(u,) CompuFam(u, ui). 的 影响 比较 大 ， 反之， 通过 用 户 好 友协 同 过 滤 得 到 的 社会 得 分 

11. ST(us)= sim(ms lh ) fam(u., ). 所 占 的 比例 较 大 ， 通 过 在 实际 数据 集 上 的 测试 来 确定 & 的 取 值 。 

12 . SS (wu.,1)) =FBCF(SI) 

016 
1 end for 0414 一 一 “一 一 New York 


----@---- [Los Angeles 


14. end for 


15. S(ux,l))=0:SF +(1-0):SS 


16. SU=Reorder(CU,S(u.,1))) 


002 
17. RS= SU .top(k) , 
18. -return Re 0 01 02 03 04 mB % 7 0%8 09 1 
CO 
3 ”实验 设计 3 参数 o 的 取 值 对 应 的 准确 率 
3.1 数据 集 描述 
本 文采 用 典型 的 LBSN 网 站 Fousquare 的 公开 用 户 签到 数 003 
据 集 。 数据 收集 自 美国 的 两 个 大 型 城市 一 一 纽约 和 洛杉矶 。 人 0025 一 -一 一 New York 
----@---- Los Angeles 
中 纽约 数据 集 包 括 49 062 个 用 户 的 221 128 条 签到 数据 ， 兴 趣 


点 的 数量 为 92 018 个 。 洛杉矶 数据 集 包括 31 544 个 用 户 的 104 
478 条 签到 数据 ， 兴 趣 点 的 数量 为 70 241 个 。 将 Foursquare 的 
两 个 数据 集中 每 个 用 户 的 签到 数据 按时 间 顺 序 划分 , 其 中 的 75% 
选 为 训练 集 ， 余 下 的 25% 作 为 测试 集 。 选 取 数 据 的 相关 信息 如 


表 < 所 示 。 0 01 02 03 04 05 06 or 08 09 1 
表 2 数据 集结 构 a 取 值 
0 图 4 参数 a 的 取 值 对 应 的 召回 率 
USeTS User id, Gender, City, Friend id 
venues Venue id, latitude longitude, check-in ,visit, category 3、4 分 别 是 比较 & 在 不 同 取 值 下 对 应 的 准确 率 和 召回 
tips User id, Venue id, latitude longitude, time 率 变 化 趋势 。 当 & 取 值 为 0.2 左右 时 ， 可 以 同时 获得 最 高 的 准 
确 率 和 召回 率 。 因 此 在 之 后 的 对 比 实验 时 ， 将 & 值 默 认 设 置 为 
3.2 评价 指标 0.2。 
本 文选 取 两 个 在 推荐 算法 中 应 用 最 为 广泛 的 评价 指标 : 准 3.4 实验 性 能 比较 
确 率 precision@N 和 召回 率 recall@N， 分 别 如 式 (7) 和 (8) 所 示 ， 为 了 验证 本 文 提出 的 个 性 化 联合 推荐 算法 的 性 能 ， 把 它 与 
N 代表 最 终 推荐 结果 的 数量 。 准 确 率 是 指 算法 推荐 结果 中 用 户 两 个 基础 推荐 算法 以 及 目前 先进 的 推荐 算法 作 比 较 ， 比 较 的 算 


实际 访问 的 兴趣 点 数量 占 推 荐 结果 总 数 的 比例 ， 反 映 推 荐 的 准 ” 法 如 表 3 所 示 。 
确 性 。 召 回 率 是 指 算法 推荐 结果 里 用 户 访问 的 兴趣 点 数量 占用 


录用 稿 
表 3 比较 的 推荐 算法 
算法 (简称 ) 算法 描述 
基于 用 户 的 历史 签到 数据 计算 用 户 之 间 的 相似 
User based _ 
度 ， 再 根据 相似 用 户 记录 计算 候选 兴趣 点 得 
CF(U) 
分 5 
基于 用 户 历史 签到 数据 和 社会 关系 计算 用 户 之 
Friend based 
间 的 相似 度 ， 再 根据 相似 用 户 的 访问 记录 推荐 
CF(F) ™ 
兴趣 点 。 
同时 考虑 用 户 的 历史 签到 数据 和 兴趣 点 的 社会 
USG(G)a0 
关系 和 地 理 因 素 ， 将 三 者 线性 融合 得 到 结 
本 文 提 出 的 个 性 化 联合 推荐 算法 ， 综 合 考虑 了 
JRA(]) 分 类 因素 、 流 行 度 因素 、 位 置 因素 、 社 交 好 友 
对 素 和 用 户 历史 签到 行为 。 
EG 1] 
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纽约 数据 集 推荐 结果 的 准 


纽约 数据 集 推荐 结果 的 


洛杉矶 数据 身 


推荐 结果 的 准确 率 


针对 


个 不 


约 数据 外 
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图 8 


同 的 推荐 算法 
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， 丛 


Ar 


页 个 数据 集 ， 将 本 文 提 H 


E 了 比较 。 其 中 图 5、6 对 应 Foursquare 的 纽 


( 


的 个 愧 


10 
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洛杉矶 数据 集 推荐 


疆 颗 


结果 的 


化 联合 和 


网 络 的 个 性 化 兴趣 点 推荐 


率 


E 荐 算法 与 三 


7、8 对 应 Foursquare 的 洛杉矶 数 


尼 介 


种 算法 TOP-N (N=5, 10, 20) 的 推荐 性 能 。 


算法 


U 作为 一 个 基 


础 的 忆 


图 5~8 


都 最 低 : 算法 F 在 局 


车 础 上 纪 


外 同 过 滤 算 法 
入 了 社会 


,结果 


的 ; 


丸 素 ,推荐 结 


于 U 


在 算法 下 


大 | 


E 推 荐 过 程 中 起 了 积极 


大 | 


确 率 和 召 蔬 


以 很 


两 个 数 ] 
现 较 好 


的 基础 上 进 


入 ]j 


位 置 


大 


率 ， 说 明 


位 置 


素 在 兴趣 


素 ， 得 到 相对 较 高 


的 准 


点 推荐 时 不 可 忽视 ， 其 可 


谨 
又 


大 程 


上 提高 失 


E 蕉 


局 全 


的 疹 


人 


确 率 和 召回 


; 而 本 文 


旦 LH 
AEL 


! 的 联合 推荐 算法 本 在 


可 见 


基于 位 置 


的 预 处 


里 筷 


提高 


3.5 


的 
排序 
的 协 
间 适 
和 召 


推荐 的 质量 。 
实验 开销 比较 


时 间 )。 不 
站 


过 滤 算 法 的 查询 时 下 


当 增长 ， 人 


率 都 高 于 其 
的 G 算法 相 比 平均 提高 了 11% 
入 类 别 因 


电 几 个 算法 ， 与 其 中 表 
的 准确 率 和 8% 的 召 


| 


深 ， 


系 、 


本 实验 中 ， 查 询 时 间 定 义 为 在 所 有 POI 上 计算 
佳 荐 分 数 的 平均 时 间 (查询 


流行 度 因素 可 以 显著 


个 jj 户 u 


时 间 不 包括 对 查询 结果 中 POI 的 


同 算法 的 查询 时 间 如 表 4 所 示 。 结果 显示 , 传统 
最 短 , 增加 考虑 
日 不同 的 查询 时 间 相 差 很 小 ， 相 较 于 结 
回 率 的 提升 ， 这 些 时 间 
表 4 不 同 


使 查询 时 
果 准 确 率 


销 可 以 接受 。 
算法 的 查询 时 间 /s 


推荐 兴趣 点 数量 


U 


2.80 


2.98 


3.21 


4.20 


3.95 4.09 


4.18 4.32 
4.48 4.79 


5.19 5.40 


结束 语 


本 文 提出 一 种 个 性 化 联合 推荐 算法 ， 通 过 引入 兴趣 点 的 位 


置办 


化 的 


Four 


素 去 除 不 可 能 或 可 能 和 
合 考 虑 POI 的 类 别 、 流 行 度 及 
程度 ， 提 高 推荐 结果 的 质量 。 


E 较 小 的 POL， 


形成 初步 候选 集 ; 


A 
综 


Kunal 


square 数据 集 上 进 


户 的 神 


[会 行为 ， 增 加 用 
此 外 ， 通 过 在 大 规模 的 


户 个 性 


行 了 实验 对 比 ， 证 明了 相 较 于 划 


他 兴趣 


点 推荐 算法 ， 该 算法 


的 准确 率 和 召 


五 


率 者 


有 所 提高 。 


看 
NY 
洪 
于 


的 工作 中 希望 能 在 以 下 两 个 方面 取得 突破 :一 方面 ， 
争取 能 将 时 间 因 素 也 引入 推荐 算法 中 ， 进 一 步 提高 推荐 算法 性 
能 ; 另 一 方面 ， 现 有 的 兴趣 点 推荐 算法 都 集中 于 本 地 推荐 ， 希 


望 能 设计 一 种 高 性 能 的 异地 兴趣 点 推荐 算法 。 
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